斯坦福:优化器「诸神之战」?AdamW凭「稳定」胜出 随着模型规模迅速扩大,预训练已成为计算密集型任务的典型代表,在大模型研发中往往是最主要的计算开销。在这种背景下,优化器的设计直接关系到收敛速度与计算成本。 斯坦福 诸神之战 muon adamw kron 2025-09-07 21:04 2